## [1] 113937 81
## 'data.frame': 113937 obs. of 81 variables:
## $ ListingKey : Factor w/ 113066 levels "00003546482094282EF90E5",..: 7180 7193 6647 6669 6686 6689 6699 6706 6687 6687 ...
## $ ListingNumber : int 193129 1209647 81716 658116 909464 1074836 750899 768193 1023355 1023355 ...
## $ ListingCreationDate : Factor w/ 113064 levels "2005-11-09 20:44:28.847000000",..: 14184 111894 6429 64760 85967 100310 72556 74019 97834 97834 ...
## $ CreditGrade : Factor w/ 9 levels "","A","AA","B",..: 5 1 8 1 1 1 1 1 1 1 ...
## $ Term : int 36 36 36 36 36 60 36 36 36 36 ...
## $ LoanStatus : Factor w/ 12 levels "Cancelled","Chargedoff",..: 3 4 3 4 4 4 4 4 4 4 ...
## $ ClosedDate : Factor w/ 2803 levels "","2005-11-25 00:00:00",..: 1138 1 1263 1 1 1 1 1 1 1 ...
## $ BorrowerAPR : num 0.165 0.12 0.283 0.125 0.246 ...
## $ BorrowerRate : num 0.158 0.092 0.275 0.0974 0.2085 ...
## $ LenderYield : num 0.138 0.082 0.24 0.0874 0.1985 ...
## $ EstimatedEffectiveYield : num NA 0.0796 NA 0.0849 0.1832 ...
## $ EstimatedLoss : num NA 0.0249 NA 0.0249 0.0925 ...
## $ EstimatedReturn : num NA 0.0547 NA 0.06 0.0907 ...
## $ ProsperRating..numeric. : int NA 6 NA 6 3 5 2 4 7 7 ...
## $ ProsperRating..Alpha. : Factor w/ 8 levels "","A","AA","B",..: 1 2 1 2 6 4 7 5 3 3 ...
## $ ProsperScore : num NA 7 NA 9 4 10 2 4 9 11 ...
## $ ListingCategory..numeric. : int 0 2 0 16 2 1 1 2 7 7 ...
## $ BorrowerState : Factor w/ 52 levels "","AK","AL","AR",..: 7 7 12 12 25 34 18 6 16 16 ...
## $ Occupation : Factor w/ 68 levels "","Accountant/CPA",..: 37 43 37 52 21 43 50 29 24 24 ...
## $ EmploymentStatus : Factor w/ 9 levels "","Employed",..: 9 2 4 2 2 2 2 2 2 2 ...
## $ EmploymentStatusDuration : int 2 44 NA 113 44 82 172 103 269 269 ...
## $ IsBorrowerHomeowner : Factor w/ 2 levels "False","True": 2 1 1 2 2 2 1 1 2 2 ...
## $ CurrentlyInGroup : Factor w/ 2 levels "False","True": 2 1 2 1 1 1 1 1 1 1 ...
## $ GroupKey : Factor w/ 707 levels "","00343376901312423168731",..: 1 1 335 1 1 1 1 1 1 1 ...
## $ DateCreditPulled : Factor w/ 112992 levels "2005-11-09 00:30:04.487000000",..: 14347 111883 6446 64724 85857 100382 72500 73937 97888 97888 ...
## $ CreditScoreRangeLower : int 640 680 480 800 680 740 680 700 820 820 ...
## $ CreditScoreRangeUpper : int 659 699 499 819 699 759 699 719 839 839 ...
## $ FirstRecordedCreditLine : Factor w/ 11586 levels "","1947-08-24 00:00:00",..: 8639 6617 8927 2247 9498 497 8265 7685 5543 5543 ...
## $ CurrentCreditLines : int 5 14 NA 5 19 21 10 6 17 17 ...
## $ OpenCreditLines : int 4 14 NA 5 19 17 7 6 16 16 ...
## $ TotalCreditLinespast7years : int 12 29 3 29 49 49 20 10 32 32 ...
## $ OpenRevolvingAccounts : int 1 13 0 7 6 13 6 5 12 12 ...
## $ OpenRevolvingMonthlyPayment : num 24 389 0 115 220 1410 214 101 219 219 ...
## $ InquiriesLast6Months : int 3 3 0 0 1 0 0 3 1 1 ...
## $ TotalInquiries : num 3 5 1 1 9 2 0 16 6 6 ...
## $ CurrentDelinquencies : int 2 0 1 4 0 0 0 0 0 0 ...
## $ AmountDelinquent : num 472 0 NA 10056 0 ...
## $ DelinquenciesLast7Years : int 4 0 0 14 0 0 0 0 0 0 ...
## $ PublicRecordsLast10Years : int 0 1 0 0 0 0 0 1 0 0 ...
## $ PublicRecordsLast12Months : int 0 0 NA 0 0 0 0 0 0 0 ...
## $ RevolvingCreditBalance : num 0 3989 NA 1444 6193 ...
## $ BankcardUtilization : num 0 0.21 NA 0.04 0.81 0.39 0.72 0.13 0.11 0.11 ...
## $ AvailableBankcardCredit : num 1500 10266 NA 30754 695 ...
## $ TotalTrades : num 11 29 NA 26 39 47 16 10 29 29 ...
## $ TradesNeverDelinquent..percentage. : num 0.81 1 NA 0.76 0.95 1 0.68 0.8 1 1 ...
## $ TradesOpenedLast6Months : num 0 2 NA 0 2 0 0 0 1 1 ...
## $ DebtToIncomeRatio : num 0.17 0.18 0.06 0.15 0.26 0.36 0.27 0.24 0.25 0.25 ...
## $ IncomeRange : Factor w/ 8 levels "$0","$1-24,999",..: 4 5 7 4 3 3 4 4 4 4 ...
## $ IncomeVerifiable : Factor w/ 2 levels "False","True": 2 2 2 2 2 2 2 2 2 2 ...
## $ StatedMonthlyIncome : num 3083 6125 2083 2875 9583 ...
## $ LoanKey : Factor w/ 113066 levels "00003683605746079487FF7",..: 100337 69837 46303 70776 71387 86505 91250 5425 908 908 ...
## $ TotalProsperLoans : int NA NA NA NA 1 NA NA NA NA NA ...
## $ TotalProsperPaymentsBilled : int NA NA NA NA 11 NA NA NA NA NA ...
## $ OnTimeProsperPayments : int NA NA NA NA 11 NA NA NA NA NA ...
## $ ProsperPaymentsLessThanOneMonthLate: int NA NA NA NA 0 NA NA NA NA NA ...
## $ ProsperPaymentsOneMonthPlusLate : int NA NA NA NA 0 NA NA NA NA NA ...
## $ ProsperPrincipalBorrowed : num NA NA NA NA 11000 NA NA NA NA NA ...
## $ ProsperPrincipalOutstanding : num NA NA NA NA 9948 ...
## $ ScorexChangeAtTimeOfListing : int NA NA NA NA NA NA NA NA NA NA ...
## $ LoanCurrentDaysDelinquent : int 0 0 0 0 0 0 0 0 0 0 ...
## $ LoanFirstDefaultedCycleNumber : int NA NA NA NA NA NA NA NA NA NA ...
## $ LoanMonthsSinceOrigination : int 78 0 86 16 6 3 11 10 3 3 ...
## $ LoanNumber : int 19141 134815 6466 77296 102670 123257 88353 90051 121268 121268 ...
## $ LoanOriginalAmount : int 9425 10000 3001 10000 15000 15000 3000 10000 10000 10000 ...
## $ LoanOriginationDate : Factor w/ 1873 levels "2005-11-15 00:00:00",..: 426 1866 260 1535 1757 1821 1649 1666 1813 1813 ...
## $ LoanOriginationQuarter : Factor w/ 33 levels "Q1 2006","Q1 2007",..: 18 8 2 32 24 33 16 16 33 33 ...
## $ MemberKey : Factor w/ 90831 levels "00003397697413387CAF966",..: 11071 10302 33781 54939 19465 48037 60448 40951 26129 26129 ...
## $ MonthlyLoanPayment : num 330 319 123 321 564 ...
## $ LP_CustomerPayments : num 11396 0 4187 5143 2820 ...
## $ LP_CustomerPrincipalPayments : num 9425 0 3001 4091 1563 ...
## $ LP_InterestandFees : num 1971 0 1186 1052 1257 ...
## $ LP_ServiceFees : num -133.2 0 -24.2 -108 -60.3 ...
## $ LP_CollectionFees : num 0 0 0 0 0 0 0 0 0 0 ...
## $ LP_GrossPrincipalLoss : num 0 0 0 0 0 0 0 0 0 0 ...
## $ LP_NetPrincipalLoss : num 0 0 0 0 0 0 0 0 0 0 ...
## $ LP_NonPrincipalRecoverypayments : num 0 0 0 0 0 0 0 0 0 0 ...
## $ PercentFunded : num 1 1 1 1 1 1 1 1 1 1 ...
## $ Recommendations : int 0 0 0 0 0 0 0 0 0 0 ...
## $ InvestmentFromFriendsCount : int 0 0 0 0 0 0 0 0 0 0 ...
## $ InvestmentFromFriendsAmount : num 0 0 0 0 0 0 0 0 0 0 ...
## $ Investors : int 258 1 41 158 20 1 1 1 1 1 ...
## ListingKey ListingNumber
## 17A93590655669644DB4C06: 6 Min. : 4
## 349D3587495831350F0F648: 4 1st Qu.: 400919
## 47C1359638497431975670B: 4 Median : 600554
## 8474358854651984137201C: 4 Mean : 627886
## DE8535960513435199406CE: 4 3rd Qu.: 892634
## 04C13599434217079754AEE: 3 Max. :1255725
## (Other) :113912
## ListingCreationDate CreditGrade Term
## 2013-10-02 17:20:16.550000000: 6 :84984 Min. :12.00
## 2013-08-28 20:31:41.107000000: 4 C : 5649 1st Qu.:36.00
## 2013-09-08 09:27:44.853000000: 4 D : 5153 Median :36.00
## 2013-12-06 05:43:13.830000000: 4 B : 4389 Mean :40.83
## 2013-12-06 11:44:58.283000000: 4 AA : 3509 3rd Qu.:36.00
## 2013-08-21 07:25:22.360000000: 3 HR : 3508 Max. :60.00
## (Other) :113912 (Other): 6745
## LoanStatus ClosedDate
## Current :56576 :58848
## Completed :38074 2014-03-04 00:00:00: 105
## Chargedoff :11992 2014-02-19 00:00:00: 100
## Defaulted : 5018 2014-02-11 00:00:00: 92
## Past Due (1-15 days) : 806 2012-10-30 00:00:00: 81
## Past Due (31-60 days): 363 2013-02-26 00:00:00: 78
## (Other) : 1108 (Other) :54633
## BorrowerAPR BorrowerRate LenderYield
## Min. :0.00653 Min. :0.0000 Min. :-0.0100
## 1st Qu.:0.15629 1st Qu.:0.1340 1st Qu.: 0.1242
## Median :0.20976 Median :0.1840 Median : 0.1730
## Mean :0.21883 Mean :0.1928 Mean : 0.1827
## 3rd Qu.:0.28381 3rd Qu.:0.2500 3rd Qu.: 0.2400
## Max. :0.51229 Max. :0.4975 Max. : 0.4925
## NA's :25
## EstimatedEffectiveYield EstimatedLoss EstimatedReturn
## Min. :-0.183 Min. :0.005 Min. :-0.183
## 1st Qu.: 0.116 1st Qu.:0.042 1st Qu.: 0.074
## Median : 0.162 Median :0.072 Median : 0.092
## Mean : 0.169 Mean :0.080 Mean : 0.096
## 3rd Qu.: 0.224 3rd Qu.:0.112 3rd Qu.: 0.117
## Max. : 0.320 Max. :0.366 Max. : 0.284
## NA's :29084 NA's :29084 NA's :29084
## ProsperRating..numeric. ProsperRating..Alpha. ProsperScore
## Min. :1.000 :29084 Min. : 1.00
## 1st Qu.:3.000 C :18345 1st Qu.: 4.00
## Median :4.000 B :15581 Median : 6.00
## Mean :4.072 A :14551 Mean : 5.95
## 3rd Qu.:5.000 D :14274 3rd Qu.: 8.00
## Max. :7.000 E : 9795 Max. :11.00
## NA's :29084 (Other):12307 NA's :29084
## ListingCategory..numeric. BorrowerState
## Min. : 0.000 CA :14717
## 1st Qu.: 1.000 TX : 6842
## Median : 1.000 NY : 6729
## Mean : 2.774 FL : 6720
## 3rd Qu.: 3.000 IL : 5921
## Max. :20.000 : 5515
## (Other):67493
## Occupation EmploymentStatus
## Other :28617 Employed :67322
## Professional :13628 Full-time :26355
## Computer Programmer : 4478 Self-employed: 6134
## Executive : 4311 Not available: 5347
## Teacher : 3759 Other : 3806
## Administrative Assistant: 3688 : 2255
## (Other) :55456 (Other) : 2718
## EmploymentStatusDuration IsBorrowerHomeowner CurrentlyInGroup
## Min. : 0.00 False:56459 False:101218
## 1st Qu.: 26.00 True :57478 True : 12719
## Median : 67.00
## Mean : 96.07
## 3rd Qu.:137.00
## Max. :755.00
## NA's :7625
## GroupKey DateCreditPulled
## :100596 2013-12-23 09:38:12: 6
## 783C3371218786870A73D20: 1140 2013-11-21 09:09:41: 4
## 3D4D3366260257624AB272D: 916 2013-12-06 05:43:16: 4
## 6A3B336601725506917317E: 698 2014-01-14 20:17:49: 4
## FEF83377364176536637E50: 611 2014-02-09 12:14:41: 4
## C9643379247860156A00EC0: 342 2013-09-27 22:04:54: 3
## (Other) : 9634 (Other) :113912
## CreditScoreRangeLower CreditScoreRangeUpper
## Min. : 0.0 Min. : 19.0
## 1st Qu.:660.0 1st Qu.:679.0
## Median :680.0 Median :699.0
## Mean :685.6 Mean :704.6
## 3rd Qu.:720.0 3rd Qu.:739.0
## Max. :880.0 Max. :899.0
## NA's :591 NA's :591
## FirstRecordedCreditLine CurrentCreditLines OpenCreditLines
## : 697 Min. : 0.00 Min. : 0.00
## 1993-12-01 00:00:00: 185 1st Qu.: 7.00 1st Qu.: 6.00
## 1994-11-01 00:00:00: 178 Median :10.00 Median : 9.00
## 1995-11-01 00:00:00: 168 Mean :10.32 Mean : 9.26
## 1990-04-01 00:00:00: 161 3rd Qu.:13.00 3rd Qu.:12.00
## 1995-03-01 00:00:00: 159 Max. :59.00 Max. :54.00
## (Other) :112389 NA's :7604 NA's :7604
## TotalCreditLinespast7years OpenRevolvingAccounts
## Min. : 2.00 Min. : 0.00
## 1st Qu.: 17.00 1st Qu.: 4.00
## Median : 25.00 Median : 6.00
## Mean : 26.75 Mean : 6.97
## 3rd Qu.: 35.00 3rd Qu.: 9.00
## Max. :136.00 Max. :51.00
## NA's :697
## OpenRevolvingMonthlyPayment InquiriesLast6Months TotalInquiries
## Min. : 0.0 Min. : 0.000 Min. : 0.000
## 1st Qu.: 114.0 1st Qu.: 0.000 1st Qu.: 2.000
## Median : 271.0 Median : 1.000 Median : 4.000
## Mean : 398.3 Mean : 1.435 Mean : 5.584
## 3rd Qu.: 525.0 3rd Qu.: 2.000 3rd Qu.: 7.000
## Max. :14985.0 Max. :105.000 Max. :379.000
## NA's :697 NA's :1159
## CurrentDelinquencies AmountDelinquent DelinquenciesLast7Years
## Min. : 0.0000 Min. : 0.0 Min. : 0.000
## 1st Qu.: 0.0000 1st Qu.: 0.0 1st Qu.: 0.000
## Median : 0.0000 Median : 0.0 Median : 0.000
## Mean : 0.5921 Mean : 984.5 Mean : 4.155
## 3rd Qu.: 0.0000 3rd Qu.: 0.0 3rd Qu.: 3.000
## Max. :83.0000 Max. :463881.0 Max. :99.000
## NA's :697 NA's :7622 NA's :990
## PublicRecordsLast10Years PublicRecordsLast12Months RevolvingCreditBalance
## Min. : 0.0000 Min. : 0.000 Min. : 0
## 1st Qu.: 0.0000 1st Qu.: 0.000 1st Qu.: 3121
## Median : 0.0000 Median : 0.000 Median : 8549
## Mean : 0.3126 Mean : 0.015 Mean : 17599
## 3rd Qu.: 0.0000 3rd Qu.: 0.000 3rd Qu.: 19521
## Max. :38.0000 Max. :20.000 Max. :1435667
## NA's :697 NA's :7604 NA's :7604
## BankcardUtilization AvailableBankcardCredit TotalTrades
## Min. :0.000 Min. : 0 Min. : 0.00
## 1st Qu.:0.310 1st Qu.: 880 1st Qu.: 15.00
## Median :0.600 Median : 4100 Median : 22.00
## Mean :0.561 Mean : 11210 Mean : 23.23
## 3rd Qu.:0.840 3rd Qu.: 13180 3rd Qu.: 30.00
## Max. :5.950 Max. :646285 Max. :126.00
## NA's :7604 NA's :7544 NA's :7544
## TradesNeverDelinquent..percentage. TradesOpenedLast6Months
## Min. :0.000 Min. : 0.000
## 1st Qu.:0.820 1st Qu.: 0.000
## Median :0.940 Median : 0.000
## Mean :0.886 Mean : 0.802
## 3rd Qu.:1.000 3rd Qu.: 1.000
## Max. :1.000 Max. :20.000
## NA's :7544 NA's :7544
## DebtToIncomeRatio IncomeRange IncomeVerifiable
## Min. : 0.000 $25,000-49,999:32192 False: 8669
## 1st Qu.: 0.140 $50,000-74,999:31050 True :105268
## Median : 0.220 $100,000+ :17337
## Mean : 0.276 $75,000-99,999:16916
## 3rd Qu.: 0.320 Not displayed : 7741
## Max. :10.010 $1-24,999 : 7274
## NA's :8554 (Other) : 1427
## StatedMonthlyIncome LoanKey TotalProsperLoans
## Min. : 0 CB1B37030986463208432A1: 6 Min. :0.00
## 1st Qu.: 3200 2DEE3698211017519D7333F: 4 1st Qu.:1.00
## Median : 4667 9F4B37043517554537C364C: 4 Median :1.00
## Mean : 5608 D895370150591392337ED6D: 4 Mean :1.42
## 3rd Qu.: 6825 E6FB37073953690388BC56D: 4 3rd Qu.:2.00
## Max. :1750003 0D8F37036734373301ED419: 3 Max. :8.00
## (Other) :113912 NA's :91852
## TotalProsperPaymentsBilled OnTimeProsperPayments
## Min. : 0.00 Min. : 0.00
## 1st Qu.: 9.00 1st Qu.: 9.00
## Median : 16.00 Median : 15.00
## Mean : 22.93 Mean : 22.27
## 3rd Qu.: 33.00 3rd Qu.: 32.00
## Max. :141.00 Max. :141.00
## NA's :91852 NA's :91852
## ProsperPaymentsLessThanOneMonthLate ProsperPaymentsOneMonthPlusLate
## Min. : 0.00 Min. : 0.00
## 1st Qu.: 0.00 1st Qu.: 0.00
## Median : 0.00 Median : 0.00
## Mean : 0.61 Mean : 0.05
## 3rd Qu.: 0.00 3rd Qu.: 0.00
## Max. :42.00 Max. :21.00
## NA's :91852 NA's :91852
## ProsperPrincipalBorrowed ProsperPrincipalOutstanding
## Min. : 0 Min. : 0
## 1st Qu.: 3500 1st Qu.: 0
## Median : 6000 Median : 1627
## Mean : 8472 Mean : 2930
## 3rd Qu.:11000 3rd Qu.: 4127
## Max. :72499 Max. :23451
## NA's :91852 NA's :91852
## ScorexChangeAtTimeOfListing LoanCurrentDaysDelinquent
## Min. :-209.00 Min. : 0.0
## 1st Qu.: -35.00 1st Qu.: 0.0
## Median : -3.00 Median : 0.0
## Mean : -3.22 Mean : 152.8
## 3rd Qu.: 25.00 3rd Qu.: 0.0
## Max. : 286.00 Max. :2704.0
## NA's :95009
## LoanFirstDefaultedCycleNumber LoanMonthsSinceOrigination LoanNumber
## Min. : 0.00 Min. : 0.0 Min. : 1
## 1st Qu.: 9.00 1st Qu.: 6.0 1st Qu.: 37332
## Median :14.00 Median : 21.0 Median : 68599
## Mean :16.27 Mean : 31.9 Mean : 69444
## 3rd Qu.:22.00 3rd Qu.: 65.0 3rd Qu.:101901
## Max. :44.00 Max. :100.0 Max. :136486
## NA's :96985
## LoanOriginalAmount LoanOriginationDate LoanOriginationQuarter
## Min. : 1000 2014-01-22 00:00:00: 491 Q4 2013:14450
## 1st Qu.: 4000 2013-11-13 00:00:00: 490 Q1 2014:12172
## Median : 6500 2014-02-19 00:00:00: 439 Q3 2013: 9180
## Mean : 8337 2013-10-16 00:00:00: 434 Q2 2013: 7099
## 3rd Qu.:12000 2014-01-28 00:00:00: 339 Q3 2012: 5632
## Max. :35000 2013-09-24 00:00:00: 316 Q2 2012: 5061
## (Other) :111428 (Other):60343
## MemberKey MonthlyLoanPayment LP_CustomerPayments
## 63CA34120866140639431C9: 9 Min. : 0.0 Min. : -2.35
## 16083364744933457E57FB9: 8 1st Qu.: 131.6 1st Qu.: 1005.76
## 3A2F3380477699707C81385: 8 Median : 217.7 Median : 2583.83
## 4D9C3403302047712AD0CDD: 8 Mean : 272.5 Mean : 4183.08
## 739C338135235294782AE75: 8 3rd Qu.: 371.6 3rd Qu.: 5548.40
## 7E1733653050264822FAA3D: 8 Max. :2251.5 Max. :40702.39
## (Other) :113888
## LP_CustomerPrincipalPayments LP_InterestandFees LP_ServiceFees
## Min. : 0.0 Min. : -2.35 Min. :-664.87
## 1st Qu.: 500.9 1st Qu.: 274.87 1st Qu.: -73.18
## Median : 1587.5 Median : 700.84 Median : -34.44
## Mean : 3105.5 Mean : 1077.54 Mean : -54.73
## 3rd Qu.: 4000.0 3rd Qu.: 1458.54 3rd Qu.: -13.92
## Max. :35000.0 Max. :15617.03 Max. : 32.06
##
## LP_CollectionFees LP_GrossPrincipalLoss LP_NetPrincipalLoss
## Min. :-9274.75 Min. : -94.2 Min. : -954.5
## 1st Qu.: 0.00 1st Qu.: 0.0 1st Qu.: 0.0
## Median : 0.00 Median : 0.0 Median : 0.0
## Mean : -14.24 Mean : 700.4 Mean : 681.4
## 3rd Qu.: 0.00 3rd Qu.: 0.0 3rd Qu.: 0.0
## Max. : 0.00 Max. :25000.0 Max. :25000.0
##
## LP_NonPrincipalRecoverypayments PercentFunded Recommendations
## Min. : 0.00 Min. :0.7000 Min. : 0.00000
## 1st Qu.: 0.00 1st Qu.:1.0000 1st Qu.: 0.00000
## Median : 0.00 Median :1.0000 Median : 0.00000
## Mean : 25.14 Mean :0.9986 Mean : 0.04803
## 3rd Qu.: 0.00 3rd Qu.:1.0000 3rd Qu.: 0.00000
## Max. :21117.90 Max. :1.0125 Max. :39.00000
##
## InvestmentFromFriendsCount InvestmentFromFriendsAmount Investors
## Min. : 0.00000 Min. : 0.00 Min. : 1.00
## 1st Qu.: 0.00000 1st Qu.: 0.00 1st Qu.: 2.00
## Median : 0.00000 Median : 0.00 Median : 44.00
## Mean : 0.02346 Mean : 16.55 Mean : 80.48
## 3rd Qu.: 0.00000 3rd Qu.: 0.00 3rd Qu.: 115.00
## Max. :33.00000 Max. :25000.00 Max. :1189.00
##
## [1] 36 60 12
##
## 12 36 60
## 1614 87778 24545
##
## Cancelled Chargedoff Completed
## 5 11992 38074
## Current Defaulted FinalPaymentInProgress
## 56576 5018 205
## Past Due (>120 days) Past Due (1-15 days) Past Due (16-30 days)
## 16 806 265
## Past Due (31-60 days) Past Due (61-90 days) Past Due (91-120 days)
## 363 313 304
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 2.00 15.00 23.00 25.32 34.00 136.00 696
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.000 0.220 0.570 0.532 0.850 5.950 7600
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.00 0.13 0.20 0.29 0.30 10.01 4370
原始数据集结构较整洁,每条观察结果为一行,每个观察特性为一列。但是考虑到变量众多,重点提取以下变量组成新的待研究的数据集pl.sub: LoanOriginationDate CreditGrade Term LoanStatus BorrowerRate ProsperRating..Alpha. ProsperScore ListingCategory BorrowerState Occupation EmploymentStatus EmploymentStatusDuration IsBorrowerHomeowner TotalCreditLinespast7years BankcardUtilization DebtToIncomeRatio IncomeRange ### 你的数据集内感兴趣的主要特性有哪些? 我感兴趣的主要特性是贷款状态LoanStatus,我很想知道哪些因素会影响借贷状态“Completed”和“Defaulted”? ### 你认为数据集内哪些其他特征可以帮助你探索兴趣特点? 首先是借贷人员的人身特性,例如就业状态及时长(EmploymentStatus/EmploymentStatusDuration),债务与收入比例(DebtToIncomeRatio),收入范围(IncomeRange),是否有房子(IsBorrowerHomeowner),居住在哪个州(BorrowerState)等,其次是借贷人的行为特性,比如信用等级及评分(CreditGrade/ProsperRating/ProsperScore),借贷原因(ListingCategory),过去7年信用额度情况(TotalCreditLinespast7years),银行卡使用情况(BankcardUtilization)等,最后是一些贷款特性,例如贷款期限(Term),贷款利率(BorrowerRate)。上述提及的变量都可以帮助我探索兴趣点。
创建新列ListingCategory,将ListingCategory..numeric.中用数字代替的分类文字化,图形展示时一目了然。
可能的异常分布: 1.网络贷款生成日期异常分布(LoanOriginationDate) 2008.11-2009.6间几乎没有网络贷款记录(期间只有2009.5有少量记录),可能是金融危机所致; 2.贷款利率分布异常(BorrowerRate) 利率值集中在0.05-0.35之间,但是在0-0.05以及0.35-0.5之间也有少量值分布; 3.贷款人过去7年总信用额度(TotalCreditLinespast7years)可能有异常值 绝大部分数值在0-50间,均值是25.28,中位数是23,少量可能异常值分布在100以上; 4.银行卡使用率(BankcardUtilization)可能有异常值 已使用额度与总额度的比例不太可能远远大于1,所以大部分值在0-1.5之间,但是发现1.5-6间也有分布; 5.债务与收入比例(DebtToIncomeRatio)可能有异常值 债务与收入比例大部分集中在0-1间,但是有少量有可能是异常值分布在1.5-10;
对如下变量进行了调整: 1.LoanOriginationDate,从factor转换为datetime,因为这个变量本身就是日期属性,转换后便于后期分析; 2.Term,从int转换为factor,因为这个变量本身只包含三类值,转换后便于按照分类变量处理; 3.将变量’BorrowerState’,‘EmploymentStatus’中“”值设为NA,因为这2个变量都是factor,对于值 为“”的元素无法进行补充,所以采取视为空值的处理方法; 4.将factor变量’CreditGrade’,‘ProsperRating..Alpha.’,’IncomeRange’变成有序factor,这样做可以优化图标界面,有顺序感利于比较; 5.因为数据集中各贷款状态(LoanStatus)的样本数量悬殊较大,同时参考Proper对各贷款状态的说明(Past Due四个月后才进入Chargedoff状态),我将原先的12种状态划分为三种状态,即完成(包括Completed和FinalPaymentInProgress)、未完成(包括Defaulted和Chargedoff)和正在完成(包括Current和各种Past Due),分别标记为“Completed”,“Current”和“Defaulted”。另外,我们主要想研究什么因素影响客户群体按时还清贷款“Completed”还是拖欠贷款“Defaulted”?,而对于处在还款状态中的客户群,未来的还款结果未知,所以不在我们考虑范围之内,予以去除。同时将“Completed”状态标记为“1”,将“Defaulted”状态标记为“0”。最后,取消(Cancelled)状态只有5个样本,直接删除该等级。
创建了两个数据子集pl.pre2009和pl.post2009: 将数据集按照贷款生成日期(LoanOriginationDate)以2009年7月1日为节点分成两部分,因为在此日期前后采用的是不同的信用等级机制。2009年7月1日之前采用的是数据集中变量 CreditGrade,自2009年7月1日开始采用Prosper自己的信用评级和评分制度,这是我们研究的一个关键指标,所以一旦涉及信用评分,需要分离数据集分别研究。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.1350 0.1950 0.2011 0.2699 0.4975
该部分双变量分析的核心方向是研究其它特性对贷款状态的影响,具体量化为对违约率的影响,这些特性都可能成为我所感兴趣特性的影响因素。 其中探讨了如下关系: 1.利用箱线图和柱状图分别研究了在两种贷款状态下贷款利率(BorrowRate)的数值分布及其对贷款违约率的影响 2.用spineplot展示了两种贷款状态下不同贷款期限的比例分布,同时通过柱状图研究了贷款期限(Term)
对违约率的影响; 3.通过柱状图分别研究了2009年7月前后信用等级(CreditGrade,ProsperRating)对贷款违约率的影响; 4.通过箱线图和柱状图分别研究了2009年9月以后风险评分(ProsperScore)的数值分布及其对贷款违约率的影响; 5.通过柱状图研究了贷款分类(ListingCategory)对贷款违约率的影响; 6.通过柱状图研究了贷款人所属州(BorrowerState)对贷款违约率的影响; 7.通过柱状图研究了贷款人雇佣状态(EmploymentStatus)对贷款违约率的影响; 8.通过箱线图和散点图(添加趋势线)分别研究了雇佣状态持续时间(EmploymentStatusDuration)的数值分布以 及其对贷款违约率的影响; 9.通过spineplot展示了两种贷款状态下贷款人有房产和没房产(IsBorrowerHomeOwner)各占的比例; 10.通过箱线图研究了贷款人过去7年贷款信用额度(TotalCreditLinespast7years)的数值分布; 11.通过箱线图和柱状图分别研究了银行卡透支率(BankcardUtilization)的数值分布及其对贷款违约率的影响; 12.通过箱线图和柱状图分别研究了银行卡透支率(BankcardUtilization)的数值分布及其对贷款违约率的影响; 13.通过箱线图和柱状图分别研究了债务与收入比(DebtToIncomeRatio)的数值分布及其对贷款违约率的影响; 14.通过柱状图研究了贷款人收入范围(IncomeRange)对贷款违约率的影响;
我所观察到贷款状态与上述特性的有趣关系包括: 1.LoanStatus v.s. BorrowRate: 随着贷款利率增加,违约率逐渐增大;当贷款利率较高时,贷款人更容易处于违约状态。 2.LoanStatus v.s. Term: 36个月是两个贷款状态最热衷选择的期限,占比均在90%左右;其次是60个月,12个月是最不受欢迎的期限;三种 贷款期限下,12个月违约率最低(约5%),其次是36个月(约31%),60个月违约率最高 (约34%)。 3.LoanStatus v.s. CreditGrade/ProsperRating: 随着信用等级变差违约率逐渐上涨。但是2009年7月以后各信用等级违约率明显小于2009年7月以前相应等级的违 约率,说明Prosper对客户信用等级标准做了有效的调整,从而降低了违约率,这是一个积极的变革。 4.LoanStatus v.s. ProsperScore:
随着风险评分增加,客户的违约率整体下降,其中评分为1风险最高,违约概率最大,风险评分在2-5时,违约率 变化不明显,从6开始显著降低。 5.LoanStatus v.s. ListingCategory: “GreenLoans”违约率最高,接下来依次是“Household Expenses”,“Medical/Demtal”,“Business”,“Personal Loan”,“Baby&Adoption”,这些贷款类别的违约率均在30%以上;违约率最低的有“RV”,“Motorcycle”,“Engagement Ring”,是唯一违约率在10%以下的三个类别。 6.LoanStatus v.s. BorrowerState: ”AL“州违约率最高,达到42%以上,接下来是”MO“(约38%)、”GA“和”ME“(均约37%)、”ID“和”IA“(均约36%), 其它州违约率均在35%以下,其中有三个州的客户违约率最低都在20%以下,它们分别是”DC“(约16.5%)、”WY“(约1 7%)、”AK“(约19%)。 7.LoanStatus v.s. EmploymentStatus: 贷款人雇佣状态不明确时(如”Notavailable”和“Others”)更容易处于“Defaulted”状态,这两个群体的违约率均 高于42%;而“Employed”和“Part-time”的贷款客户更容易完成还款,违约率相对于其它雇佣状态较低,在25%左右 8.LoanStatus v.s. EmploymentStatusDuration: 由于某种雇佣状态持续时间越长,贷款人数越少,违约率较发散,同时结合实际情况,我们只研究雇佣状态持续 20年及以内的情况,发现雇佣状态持续时间对贷款的违约或完成没有显著影响。 9.LoanStatus v.s. IsBorrowerHomeOwner: “Completed”群体中拥有房产的人的比例略高于“Defaulted”群体,但差距不明显,在5%之内。 10.LoanStatus v.s. TotalCreditLinespast7years: “Completed”和“Defaulted”群体的TotalCreditLinespast7years数据分布十分相似,所以我们大胆推测
TotalCreditLinespast7years对违约或完成情况没有太大影响。 11.LoanStatus v.s. BankcardUtilization 随着银行卡透支率的增加,违约率随之上升。当贷款人银行卡透支率高于85%时,进入”Defaulted“贷款状态的概 率有35%。 12.LoanStatus v.s. DebtToIncomeRatio 当债务是收入的20%及以下时,对贷款状态无显著影响(违约率均约27%);当债务是收入的20%-30%之间时,违约 率稍有增加,在30%左右;当债务与收入的比例突破30%后,那么该群体贷款的平均违约率高达37%左右了。 13.LoanStatus v.s. IncomeRange 未列明工资范围(”Not displayed“)和无职业无收入(”Not employed“,”$0“) 的贷款人违约率最高,分别是40%和 39%左右。随着贷款人收入的增加,违约率呈梯度降低趋势。
我发现与贷款状态(违约率)关系最强的是贷款利率(BorrowerRate),同时贷款人的信用等级(ProsperRating..Alpha.)、风险评分(ProsperScore)、雇佣状态(EmploymentStatus)、银行卡透支率(BankcardUtilization)及收入范围(IncomRange)都会影响贷款状态。
##
## Call:
## lm(formula = LoanStatus ~ BorrowerRate + ProsperRating..Alpha. +
## ProsperScore + EmploymentStatus + IncomeRange + BankcardUtilization +
## Term, data = pl.post2009)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.0942 -0.5018 0.1614 0.3178 0.7576
##
## Coefficients: (1 not defined because of singularities)
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.767857 0.080534 9.535 < 2e-16 ***
## BorrowerRate -1.345766 0.114437 -11.760 < 2e-16 ***
## ProsperRating..Alpha..L 0.093645 0.029931 3.129 0.00176 **
## ProsperRating..Alpha..Q 0.004151 0.008030 0.517 0.60524
## ProsperRating..Alpha..C -0.021854 0.007736 -2.825 0.00473 **
## ProsperRating..Alpha.^4 0.001047 0.006985 0.150 0.88089
## ProsperRating..Alpha.^5 -0.008003 0.006632 -1.207 0.22753
## ProsperRating..Alpha.^6 0.009264 0.006489 1.428 0.15342
## ProsperScore 0.012897 0.001795 7.184 6.96e-13 ***
## EmploymentStatusFull-time 0.068208 0.006535 10.438 < 2e-16 ***
## EmploymentStatusNot employed 0.745779 0.473240 1.576 0.11506
## EmploymentStatusOther -0.110391 0.014993 -7.363 1.85e-13 ***
## EmploymentStatusPart-time 0.131375 0.028939 4.540 5.66e-06 ***
## EmploymentStatusRetired 0.022310 0.025992 0.858 0.39070
## EmploymentStatusSelf-employed -0.022848 0.011893 -1.921 0.05472 .
## IncomeRange.L 0.612129 0.292835 2.090 0.03660 *
## IncomeRange.Q -0.413289 0.258733 -1.597 0.11020
## IncomeRange.C 0.264192 0.167740 1.575 0.11527
## IncomeRange^4 -0.152938 0.078386 -1.951 0.05106 .
## IncomeRange^5 0.053941 0.024791 2.176 0.02957 *
## IncomeRange^6 NA NA NA NA
## BankcardUtilization 0.049372 0.008506 5.804 6.54e-09 ***
## Term.L -0.165828 0.010386 -15.967 < 2e-16 ***
## Term.Q 0.006996 0.006024 1.161 0.24549
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4213 on 27322 degrees of freedom
## (131 observations deleted due to missingness)
## Multiple R-squared: 0.1071, Adjusted R-squared: 0.1064
## F-statistic: 149 on 22 and 27322 DF, p-value: < 2.2e-16
在双变量探索中发现了最强的关系是贷款状态与贷款利率,以此为主线,加入其它变量进行多变量探索分析,我研究了如下的关系: 1.LoanStatus v.s. BorrowerRate & Term 在所有利率水平中,12个月的贷款期限违约率明显低于36个月和60个月,基本集中在10%以下;当贷款利率处于低谷时(如0-0.14),60个月的平均违约率稍高于36个月(约5%);当贷款利率处于中间水平时(如0.15-0.27),36个月的平均违约率高于60个月(不超过5%);当贷款利率处于高峰时(如0.27-0.5),36个月和60个月的平均违约率几乎无差别。
2.LoanStatus v.s. BorrowerRate & ProsperRating(这里只研究 2009.7以后) 发现信用等级高的人更容易获得低利率的贷款;贷款利率越高、信用等级越差,越容易使贷款处于违约状态。
3.LoanStatus v.s. BorrowerRate & ProsperScore(after 2009.7) 信用等级或风险评分较高的违约率较小,信用等级和风险评分都居中的违约率较大,信用等级和风险评分都较低的违约率最大。
4.LoanStatus v.s. BorrowerRate & EmploymentStatus 不论处于什么利率水平,雇佣状态为“Employed”和“Part-time”的违约率相对于其它状态来说较小;当处于低利率水平时(例如小于0.2),个体(“Self-employed”)的违约率较高,而当处于高利率水平时(例如大于0.2),未列明雇佣状态的群体(“Not available”)的违约率显著高于其它群体。
5.LoanStatus v.s. BorrowerRate & IncomeRange 随着收入范围的增加和利率的降低,违约率逐渐降低。反之,收入越少、利率越高,那么贷款更容易处于“Defaulted”状态。
6.LoanStatus v.s. BorrowerRate & BankcardUtilization 总体趋势是贷款利率越高、银行卡透支率越高,那么贷款违约率就越大;在低利率区间0-0.14,随着银行卡透支率的增加,平均违约率逐渐上升;但在其它利率区间,低透支率反而拥有相对较高的平均违约率。
相互促进的特性有: 1.贷款利率和信用等级; 2.贷款利率和风险评分; 3.信用等级和风险评分; 4.贷款利率和收入范围。
1.贷款利率和信用等级(信用等级越高,贷款利率越低,违约概率越低); 2.贷款利率和风险评分(风险评分越高,贷款利率越小,违约概率越低); 3.信用等级和风险评分(信用等级越高,风险评分越高,违约概率越低); 4.贷款利率和收入范围(收入范围越大,贷款利率越小,违约概率越低)。
尝试过。从线性拟合结果来看,影响贷款状态的因素中,有10.5%的因素来自拟合时的变量。因为数据集涉及到的变量众多,都有可能影响到贷款的最终状态,而我们研究的变量有限,加之线性拟合的局限性,所以本结果不是一次成功的拟合。
由直方图可知,2008.11-2009.6间几乎没有网络贷款记录(期间只有2009.5有少量记录),可能是金融危机所致,我们需要关注Prosper在这个空白时间段前后业务上有什么变化。
’Defaulted’状态的贷款利率中位数明显大于 ’Completed’状态,随着贷款利率增加,平均违约率逐渐增大。
同等利率条件下,随着收入范围的增加(从$0-$100,000+),“Defaulted”状态的贷款所占的比例逐渐有所下降(散点图蓝色点密度下降),同时各个收入范围所对应的平均违约率逐渐下降;可以发现在已列明收入范围的贷款中,利率越低、收入越高,则违约概率越小;反之,收入越少、利率越高,那么贷款更容易处于“Defaulted”状态。
Prosper 贷款数据集包括了2005-11到2014-03期间113,937 项贷款,每项贷款有 81 个变量。我首先通过变量字典了解各个变量所代表的具体含义,然后在进一步熟悉金融贷款常识的基础上,寻找并确定自己感兴趣的问题,那就是探索哪些因素会影响借贷状态(这里主要指"Defaulted"和"Completed"两种状态),我从中选择了自认为重要的16个变量,研究这些变量对贷款状态(LoanStatus)的影响。由于知识面和时间有限,16个变量的选择和分析不可避免有失完整性及合理性,所以所得结论仅用于此项目。
所选取的变量包括三个层面,借贷人员的人身特性,例如就业状态及时长(EmploymentStatus/EmploymentStatusDuration),债务与收入比例(DebtToIncomeRatio),收入范围(IncomeRange),是否有房子(IsBorrowerHomeowner),居住在哪个州(BorrowerState)等,其次是借贷人的行为特性,比如信用等级及风险评分(CreditGrade/ProsperRating/ProsperScore),借贷原因(ListingCategory),过去7年信用额度情况(TotalCreditLinespast7years),银行卡使用情况(BankcardUtilization)等,最后是一些贷款特性,例如贷款期限(Term),贷款利率(BorrowerRate),我认为上述提及的变量都可以帮助我探索前面提到的问题。
通过单变量和双变量阶段的分析,我发现与贷款状态(违约率)关系最强的是贷款利率(BorrowerRate),贷款利率越高,那么该笔贷款违约的概率就越大,这也符合我们的常识。所以多变量分析阶段,在贷款状态和利率两个变量的基础上,同时结合其它关系较强的影响贷款状态(违约率)的变量进行了进一步探索,这些变量包括贷款人的信用等级(ProsperRating..Alpha.)、风险评分(ProsperScore)、收入范围(IncomRange)、雇佣状态(EmploymentStatus)、银行卡透支率(BankcardUtilization)及贷款期限(Term)。结果表明信用等级和风险评分高的更容易获得低利率的贷款,从而更容易使贷款处于"Completed"状态;在列明收入范围的贷款中,利率越高,收入越低,贷款违约率降高,反之贷款违约率变低。遗憾的是,贷款期限、雇佣状态以及银行卡透支率并没有随着利率水平的变化而出现有规律的变化,它们的变化趋势依赖于不同的利率水平区间。
最后我尝试过建立线性模型。从线性拟合结果来看,影响贷款状态的因素中,有10.5%的因素来自拟合时的变量。因为数据集涉及到的变量众多,都有可能影响到贷款的最终状态,而我们研究的变量有限,加之线性拟合的局限性,所以本结果不是一次成功的拟合,今后还需要学习其它建模方法后进一步优化结果。未来应多进行逻辑思维训练,提升分析能力,从对不同类型数据的理解和处理入手,通过创建有效的分析图形,充分探索数据集。